Yiksan0315's Blog

n-gram

# Tag:

  • Source/KU_ML2

n-gram

개의 이전 단어를 보고 그 다음 단어를 예측하는, 확률 기반의 모델.

과거의 몇 개의, 개의 연속된 단어를 보는 지에 따라 그 다음에 올 단어가 문법적으로 맞을 확률에 대해 계산한다.

: by Bayes' Theorem's chain-rule.

위의 확률에 따라서, 몇 개()까지의 이전 단어를 볼 것인지에 따라 다음 단어()의 확률을 근사화 하여 계산한다.

n-gram

보통 은 의미가 없도록 '' 과 같은 빈 문자열로 처리한다.

만약, 다음 단어가 문법적으로 틀리다면, 학습 데이터에는 그러한 문법적으로 틀린 개의 단어가 붙어 있게 구성되어 있을 확률이 적으므로 해당 단어는 확률이 작게 나올 것이다.

problem

  • 이 fixed 되어 있으므로, 멀리 떨어진 단어 간의 중요도를 반영하지 못한다.
  • 또한, 문장 속에서 단어 수가 변하게 되면 이에 맞춰 반영되지 못한다.
toc test

이 페이지는 리디주식회사에서 제공한 리디바탕 글꼴이 사용되어 있습니다. 리디바탕의 저작권은 리디주식회사가 소유하고 있습니다.

This Font Software is licensed under the SIL Open Font License, Version 1.1.

Copyright 2025. yiksan0315 All rights reserved.